今天來學一些資料轉換、重塑的技巧,它們允許我們將原始資料重新組織,以更好地理解和分析數據。Pandas是處理這些操作的強大工具,它提供了許多函數和方法,使資料轉換和重塑變得輕鬆。
可以使用groupby方法來按某一列或多列的值將資料框分成多個子資料框,然後對每個子資料框進行操作。如果我們要計算每個類別的平均值 ->
grouped = df.groupby('類別')
mean_values = grouped['數值'].mean()
資料以多個列的形式存在時,我們會希望將它們堆疊成一個更長的資料框。可以使用stack方法實現。pivot和melt方法用在寬格式和長格式之間進行資料框的轉換。
# 堆疊多個列
stacked_df = df.stack()
# 使用pivot進行資料重塑
pivoted_df = df.pivot(index='日期', columns='類別', values='數值')
# 使用melt進行資料重塑
melted_df = df.melt(id_vars=['日期'], var_name='類別', value_name='數值')
不同資料框之間合併資料也是常見的轉換操作。可以使用merge方法按一個或多個鍵將兩個資料框合併在一起,或使用concat方法將多個資料框疊加在一起。
# 使用merge進行合併
merged_df = pd.merge(df1, df2, on='共同欄位')
# 使用concat進行疊加
concatenated_df = pd.concat([df1, df2])
這些是Pandas中資料轉換和重塑的一些常見技巧,可以幫助我們更好地處理和理解不同形式的數據,並為進一步的分析做好準備。